iT邦幫忙

2022 iThome 鐵人賽

DAY 3
0
自我挑戰組

用Python學習網路爬蟲30天系列 第 3

[Day3] 什麼是網路爬蟲?

  • 分享至 

  • xImage
  •  

網路爬蟲,或稱網路資料擷取,是一個從Web資源擷取所需資料的過程。它可以讓我們從網站取出非表格或結構不佳的資料,轉換成可用且結構化的資料。

注意!!!若取得資料已經是機器可讀取的,就不屬於網路爬蟲的範疇,如下:

  • 從網路下載資料檔(Excel、CSV、JSON、XML檔)
  • 應用程式介面API

網路爬蟲除了可以從網路擷取資料,還可以收集資料和線上追蹤資料的變更。常見應用如下:

  • 爬取相關網站取得指定產品和服務的價格,找出最划算的價格
  • 從股票資訊網站爬取相關資訊來追蹤股價趨勢
  • 從社群網站爬取使用者評價、流行趨勢和熱門話題

網路爬蟲基本步驟

  1. 識別出目標網址:識別出目標Web資源的網址
  2. 送出HTTP請求取得HTML網頁:使用Python函式庫送出請求取回HTTP回應的網頁
  3. 分析HTML網頁:使用視覺化工具在網頁定位所需資料,並且分析分析如何搜尋和找出標籤來擷取資料
  4. 剖析HTML網頁:使用Python函式庫解析回應文件的網頁,可以建立成樹狀結構的標籤物集合
  5. 從解析網頁取出所需資料:透過搜尋和走訪方式取出所需資料,整理成指定格式後儲存成CSV或JSON檔案

上一篇
[Day2] 軟體安裝
下一篇
[Day4] 從網路取得資料1_HTTP請求
系列文
用Python學習網路爬蟲30天30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言